图片url解析正确，但爬虫无法下载图片

您所在的位置：网站首页 › 爬虫下载图片 › 图片url解析正确，但爬虫无法下载图片

图片url解析正确，但爬虫无法下载图片

2023-12-04 03:55| 来源: 网络整理| 查看: 265

图片url解析正确，但爬虫无法下载图片爬虫错误debug解注释DOWNLOADER_MIDDLEWARESHTTP status code is not handled or not allowed使用xpath复制的网页元素路径却下载不到图片网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403网页图片设置了在显示图片前先显示一个动态图参考博客链接:github爬虫代码

爬虫错误debug 解注释DOWNLOADER_MIDDLEWARES # Enable or disable downloader middlewares # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html DOWNLOADER_MIDDLEWARES = { 'imgspider.middlewares.ImgspiderDownloaderMiddleware': 543, }

如果你不是使用scrapy startproject yourspider这个命令创建项目的话，项目中可能不会有middlewares.py文件，必须有这个文件再在settings.py中进行设置才生效如果你使用pip install安装可能漏装Pillow这个库记得补上

HTTP status code is not handled or not allowed

注意查看网页地址是否正确如下com和article中间多了/

INFO: Ignoring response : HTTP status code is not handled or not allowed 使用xpath复制的网页元素路径却下载不到图片

这种情况有多种目前我只遇到两种

网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403

这种情况你得研究反反爬虫的技术了网上一般说是VPN+代理IP

网页图片设置了在显示图片前先显示一个动态图

这种情况打开网页的源代码会看到 src属性指定的是一张动态图片，而data-src指定才是真正的图片地址，使用右键检查src指定的也是图片地址但爬到的是gif图片，把属性改成data-src就解决了 src指定的是一张gif图片

参考博客链接:

https://blog.csdn.net/Wfarmer/article/details/104990791

github爬虫代码

[email protected]:YuanJZhang/Imgspider.git

【本文地址】

图片url解析正确，但爬虫无法下载图片

图片url解析正确，但爬虫无法下载图片

今日新闻

推荐新闻